批量下载 starBase 数据库查询信息
学无止境
1介绍
starBase 现在叫做 ENCORI(The Encyclopedia of RNA Interactomes),文章引用次数超 8000 次,由 中山大学 的 杨建华 团队建设的。
功能:
主要关注 miRNA - target 相互作用。ENCORI 是用于研究 miRNA-ncRNA,miRNA-mRNA,ncRNA-RNA,RNA-RNA,RBP-ncRNA 和 RBP-mRNA 与来自 CLIP-seq,degradome-seq 和 RNA-RNA 互作的数据库。
ENCORI 从多维测序数据中识别了超过 410 万 miRNA-ncRNA, 290 万 miRNA-mRNA, 410 万 RBP-RNA 和 150 万 RNA-RNA 相互作用。
含有 32 种类型的癌症的 基因表达数据,其衍生自 10882 RNA-seq 和 10546 miRNA-seq 数据,ENGORI 允许研究人员对 RNA-RNA 和 RBP-RNA 相互作用进行泛癌分析。Encori 还提供平台,以进行 miRNA,lncRNA,假基因和 mRNA 的 生存 和 差异表达分析。
统计信息:
网址:https://starbase.sysu.edu.cn/index.php
首页:
2引言
有时候我们有几十个甚至上百个基因需要查询其结合的 RBP 或者 miRNA 或 lncRNA 等情况时,一个个查询效率肯定会非常慢,我们的需求是可以批量下载查询的数据。
假如我们查询 mRNA Tbx2 基因可以结合的 miRNA,最后 submit 即可:
选择好物种、基因组版本、筛选置信度及靶基因名字:
可以看到有很多 miRNA 会有 Tbx2 基因结合:
点击右边即可下载:
查看下载结果:
那么我们怎么批量下载呢?肯定不可能一个个查询下载。
3批量下载结果
我们先复制下载链接看看:
https://starbase.sysu.edu.cn/moduleDownload.php? \
source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;TBX2
根据最后一个基因名进行替换生成批量替换地址:
# 查询基因
gene <- c('Gnai3','Cdc45','Scml2','Apoh','Narf',
'Cav2','Klf6','Scmh1','Cox5a','Tbx2',
'Tbx4','Zfy2','Ngfr','Wnt3','Wnt9a')
# 地址
root <- 'https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;'
# 粘贴
url <- paste(root,gene,sep = '')
# 查看
head(url,3)
[1] "https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Gnai3"
[2] "https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Cdc45"
[3] "https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Scml2"
批量下载:
# 创建文件夹
dir.create('D:/mRNA-miRNA-data')
# 批量下载
lapply(1:length(url), function(i){
download.file(url = url[i],
destfile = paste('D:/mRNA-miRNA-data/',gene[i],'_res.xls',sep = ''),
mode = 'wb')
})
## 试开URL’https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Gnai3'
## downloaded 35 KB
## 试开URL’https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Cdc45'
## Content length 480 bytes
## downloaded 480 bytes
## 试开URL’https://starbase.sysu.edu.cn/moduleDownload.php?source=agoClipRNA&type=xls&value=hg19;mRNA;all;3;0;0;1;None;Scml2'
## downloaded 42 KB
## ...
# 查看下载结果
list.files('D:/mRNA-miRNA-data')
[1] "Apoh_res.xls" "Cav2_res.xls" "Cdc45_res.xls" "Cox5a_res.xls" "Gnai3_res.xls"
[6] "Klf6_res.xls" "Narf_res.xls" "Ngfr_res.xls" "Scmh1_res.xls" "Scml2_res.xls"
[11] "Tbx2_res.xls" "Tbx4_res.xls" "Wnt3_res.xls" "Wnt9a_res.xls" "Zfy2_res.xls"
然后还可以对数据做一个批量合并操作:
# 批量读取
library(plyr)
info <- list.files('D:/mRNA-miRNA-data/',pattern = '.xls')
head(info,3)
[1] "Apoh_res.xls" "Cav2_res.xls" "Cdc45_res.xls"
# 合并信息
ldply(1:length(info),function(x){
# 读取结果
da <- read.csv(paste('D:/mRNA-miRNA-data/',info[x],sep = ''),
skip = 3,header = T,sep = '\t')
return(da)
}) -> res
# 查看合并结果
head(res,3)
miRNAid miRNAname geneID geneName geneType chromosome
1 No Available results. <NA> <NA> <NA> <NA> <NA>
2 MIMAT0000070 hsa-miR-17-5p ENSG00000105971 CAV2 protein_coding chr7
3 MIMAT0000070 hsa-miR-17-5p ENSG00000105971 CAV2 protein_coding chr7
narrowStart narrowEnd broadStart broadEnd strand clipExpNum degraExpNum RBP PITA
1 NA NA NA NA <NA> NA NA <NA> NA
2 116147157 116147162 116147157 116147162 + 14 0 AGO1-4,AGO2,AGO3 1
3 116147477 116147484 116147477 116147484 + 1 0 AGO2 1
RNA22 miRmap microT miRanda PicTar TargetScan pancancerNum
1 NA NA NA NA NA NA NA
2 0 0 0 0 0 0 13
3 0 0 0 0 0 0 13
可以看到有些 NA 值,说明 查询结果是没有的,去除掉这些结果:
library(tidyverse)
# 去除没有信息的基因
fil_res <- res %>% dplyr::filter(miRNAid != "No Available results.")
# 保存数据
write.csv(fil_res,file = 'D:/mRNA-miRNA-data/filter_mRNA_info.csv',row.names = F)
write.csv(res,file = 'D:/mRNA-miRNA-data/all_mRNA_info.csv',row.names = F)
最后希望对大家有所帮助!
欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群
哦,代码已上传至QQ群文件夹,欢迎下载。
群二维码:
老俊俊微信:
知识星球:
所以今天你学习了吗?
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,赏杯快乐水喝喝吧!
往期回顾
◀MeRIP-seq 数据分析之 homer 富集 motif
◀MeRIP-seq 数据分析之 homer 注释 peaks
◀MeRIP-seq 数据分析之 callpeak 及 peak 可视化
◀...